高等数学

Wang Haihua

🍈 🍉🍊 🍋 🍌


中心极限定理

由上一讲“数学|概率统计06 中心极限定理”,我们知道

中心极限定理:设从均值为$\mu$,方差为$\sigma^2$的任意总体中抽取样本量为$n$的样本,当样本量充分大时,样本均值$\bar{X}$的抽样分布近似服从均值为$\mu$,方差为$\frac{\sigma^2}{n}$(也就是标准差为$\frac{\sigma}{\sqrt{n}}$)的正态分布。

这里的$\frac{\sigma}{\sqrt{n}}$,我们称为标准误差(Standard error).注意区分标准差与标准误的区别:

经验性地认为当样本数量大于30时,可以视为大样本。

3-$\sigma$原则

正态分布的3σ原则为:数值分布在(μ-σ,μ+σ)中的概率为0.6827;数值分布在(μ-2σ,μ+2σ)中的概率为0.9545;数值分布在(μ-3σ,μ+3σ)中的概率为0.9973,可以认为,Y的取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%。 3sigma

再结合中心极限定理,我们从总体中随机抽取n个数,这n个数的平均值大概率(95.4%)会落在距离总体均值前后2倍的标准误($\frac{\sigma}{\sqrt{n}}$)的范围内。这里的$\sigma$是总体标准差

换一个角度来说,如果我们要取平均值值周围概率和为95%的区间范围,我们可以找(μ-1.96σ,μ+1.96σ)这个区间 norm

但现在的问题并不是已知总体均值,问抽样数据的平均值落在哪个范围,而是要根据样本的信息(统计量)来求得总体均值所在的范围,这时候怎么办呢?

一个简单的办法是直接采用样本的均值来估计总体的均值,这被称为“点估计”。对于样本大的时候我们或许有信心认为这种方法估计的结果是可靠的(比如10000个人身高构成的总体,取其中10000个作为样本,然后计算样本均值来近似总体均值),但当样本个数少时,似乎就不太可靠了(极端情况,10000个人身高构成的总体,取其中一个作为样本,拿这一个人的身高估计人群平均身高)。 也就是说我们能直观地体会到样本量越大,用样本均值估计总体均值就越可靠,此时我们再回顾中心极限定律,会发现该定律早已揭示了我们刚才的直观感受。

回到估计总体均值的这个问题上来,点估计并没有考虑到样本数量对估计结果的影响。所以统计学家又想到了另一个估计的方法——区间估计(Interval estimation)。

区间估计

距离总体均值前后约2个标准误的区间有95%的可能性包含样本的平均值,那么,当获得的样本平均值之后,取样本的平均值前后约2个标准误的区间,是不是也有95%的概率可以“捕获”到总体的平均值呢?

基于上述想法我们可以通过样本均值来构建给定“把握度”(置信度,level of confidence)下的总体均值可能在的范围。 interval

当样本的均值为$\bar{X}$,我们可以通过 $$[\bar{X}-1.96\frac{\sigma}{\sqrt{n}},\bar{X}+1.96\frac{\sigma}{\sqrt{n}}]$$ 来获得把握度(置信度)为95%的总体均值所在的范围(置信区间)。

可以看到当标准误($\frac{\sigma}{\sqrt{n}}$)小的时候,同样的置信度,所获得置信区间就越“窄”,得到的范围就越精确。什么时候标准误小呢?对于同样的总体而言,样本越大,也就是n越大,标准误就越小。正对应了我们所直观感受到的样本量越大,估计结果越可靠。

置信水平与显著性水平

把握度为95%确实可以代表着比较大的概率,但也有5%“没把握”,这就意味着我们通过区间估计得到的结果可能会有错。下面这张图直观地描述了这中间的“把握”与“差错”: interval

上图中大部分的区间估计(蓝色)是涵盖总体均值μ的,这对应了没犯错的情况;少数(红色)没有“捕捉到”总体均值,这对应了犯错的情况。

置信水平(level of confidence)表示了把握度,而显著性水平(level of significance)表示了可能犯错的程度。

我们用$\alpha$表示显著性水平,则置信度可表示为$1-\alpha$.下图展示了二者在图像上的关系: interval

95%的置信水平(即5%的显著性水平)对应的图像如下: interval

置信水平可以是0到100%之间的任何数字,但最常见的值是90% (α=0.10)、95% (α=0.05)和99% (α=0.01)。

大样本总体均值估计

大样本100(1−α)%总体均值置信区间可以通过下式获得 $$[\bar{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}},\bar{X}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}}]$$

这里的$z_{\alpha/2}$是一个值,对于期望为0,标准差为1的正态分布,也就是标准正态分布N(0,1),从该值至无穷大所在区间对应的概率密度和为$\alpha/2$, interval

有些时候,我们并不知道总体的标准差是多少,如果样本足够大(n>30)我们可以用样本标准差近似总体标准差,从而有下式估计总体均值 $$[\bar{X}-z_{\alpha/2}\frac{s}{\sqrt{n}},\bar{X}+z_{\alpha/2}\frac{s}{\sqrt{n}}]$$ 这里的$s$即为样本标准差。

样本标准差(Sample standard deviation)的计算公式为 $$s = \sqrt{\frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n-1}}$$

小结

本文梳理了中心极限定理、3-σ原则、区间估计与大样本均值估计之间的逻辑关系,得到了大样本均值区间估计的公式。本文中所提到的置信区间、置信度、显著性水平等概念需要重点理解。

参考资料